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摘要 : 【 目的】 针对 当前 的 大 数据 环境 , 提出 基于 Hadoop 的 微 博 盟 情 监控 系统 模型 , 实现 对 海量 微 博信 息 的 采 


集 、 挖 气 、 监 控 分 析 。[ 方法 】 分析 和 与 情 监 控 技 术 , 构 到 


旺 情 监控 系统 模型 改进 相关 算法 ,利用 Hadoop 搭建 大 


数据 平台 ,进行 仿真 实验 , 验证 模型 可 用 性 。[ 结果 】 实 验 结果 表明 , 模型 能 够 很 好 地 对 海量 微 博 数据 进行 监控 
分 析 , 达到 与 情 监 控 的 目的 。[ 局 限 】 Hadoop 集群 规模 较 小 ; 没有 对 比 多 种 聚 类 算法 , 未 得 到 改进 算法 与 其 他 算法 
的 优 劣 。[ 结论 】 该 模型 可 以 对 海量 微 博 数据 进行 与 情 监控 分 析 , 为 决策 者 应 对 舆情 危机 提供 科学 化 的 信息 支持 。 


关键 词 : 鼻 情 监控 Hadoop 微 博 ”大 数据 
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1 3 引 


随 着 互联 网 的 快速 发 展 ，Internet 已 经 成 为 当今 时 
代 信 息 传播 的 主要 渠道 , 也 是 与 情 止 传播 的 重要 途径 。 
中 国 互 联网 络 信息 中 心 (CNNIC) 第 36 次 《中 国 互联 
网 络 发 展 状况 统计 报告 》 显 示 , 截至 2015 年 6 月 ， 
中 国 网 民 规 模 6.68 亿 , 互联 网 普及 率 达到 48.8%。 手 
机 网 民 保持 增长 态势 , 已 达 5.94 亿 钼 。 互 联网 普及 率 
的 快速 提升 , 使 得 在 线 社会 网 络 中 发 展 极 快 ， 以 微 博 
为 代表 的 各 种 社交 平台 已 然 成 为 信息 传播 的 中 坚 力 
量 , 它 在 带 给 人 们 信息 传播 方便 性 的 同时 ,也 为 我 国 
的 熏 情 工作 的 开展 带 来 了 挑战 。 据 不 完全 统计 ， 腾讯 
微 博 与 新 浪 微 博 目前 注册 用 户 总 数 已 达 十 亿 数 量 级 
别 ,日 增 数据 量 达 到 TB 级 别 , 海量 数据 的 出 现 以 及 如 
何 从 如 此 庞大 的 数据 量 中 进行 挖掘 、 分 析 ， 获取 重要 
的 信息 ,实现 对 敏感 信息 、 热 点 话题 的 检测 跟踪 等 由 
情 监 控 分 析 成 为 一 个 重要 研究 方向 以 及 我 国 熏 情 工作 
者 面临 的 巨大 挑战 。 

大 数据 时 代 , 数据 在 爆发 式 增 长 ， 然 而 传统 的 与 
情 监控 系统 大 部 分 是 基于 工作 站 或 者 服务 器 ,使 得 运 
营 成 本 很 高 , 传统 的 数据 库 方 案 在 海量 数据 处 理 方面 
往往 表现 为 成 本 高 昂 、 可 扩展 性 差 、 单 点 通信 故障 等 。 


了 


利用 Hadoop 大 数据 技术 处 理 海量 数据 成 为 当下 热门 
的 解决 方案 ,因此 , 本 文 构建 基于 Hadoop 的 微 博 僵 情 
监控 系统 模型 ， 可 以 高 效 地 对 海量 微 博 数据 进行 挖 所 
分 析 , 达到 与 情 监控 的 目的 , 具有 现实 意义 。 


2 相关 研究 


截至 2015 年 12 月 10 日 , 通过 中 国 知 网 中 国学 术 
文献 网 络 出 版 总 库 页 面 , 选择 中 国学 术 期 刊 网 络 出 版 
总 库 、 中 国 博 士 学 位 论文 全 文 数据 库 、 中 国 优秀 硕士 
学 位 论文 全 文 数据 库 、 中 国 重要 会 议论 文 全 文 数据 库 
和 中 国 重 要 报纸 全 文 数据 库 ， 以 “ 微 博 + 僵 情 ?为 关键 
词 ， 可 以 检索 出 9 397 篇 相关 文献 。 然 而 当 调整 检索 式 
为 “ 微 博 + 大 数据 + 奥 情 "时 , 仅 有 22 篇 相关 文献 。 从 检 
索 结 果 来 看 ， 大 部 分 学 者 的 研究 集中 在 微 博信 息 的 传 
播 方 向 上 , 探讨 微 博信 息 传 播 的 特点 、 影 响 机 制 等 问 
题 。 其 中 ， 兰 月 新 等 外 通过 构建 数学 模型 研究 大 数据 
背景 下 微 博 与 其 他 网 络 媒 体 的 信息 交互 问题 , 也 有 学 
者 根据 复杂 网 络 理论 对 微 博信 息 传 播 特征 进行 分 析 ， 
如 田 占 伟 等 5 利用 复杂 网 络 理论 方法 ,对 构建 的 微 博 
言 息 传播 网 络 ， 进行 基 于 度 .路 径 统 计 指 标的 分 析 , 最 
终 表明 信息 在 微 博 网 络 中 的 传播 效率 比 其 他 在 线 社会 
网 络 更 高 等 特征 ; 同时 ， 也 有 学 者 从 用 户 角 度 出 发 ， 
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研究 微 博 意见 领袖 相关 问题 如 刘 志 明 等 外 从 用 户 影 
响 力 和 用 户 活跃 度 两 个 角度 考虑 , 构建 微 博 意 见 领 袖 
指标 体系 ， 提 出 使 用 层次 分 析 法 和 粗糙 集 决策 分 析 理 
论 对 意见 领袖 的 特征 进行 识别 及 分 析 的 理论 框架 。 在 
微 博 和 舆情 监控 方面 ,高 承 实 等 中 提出 可 利用 新 浪 微 博 
现 有 的 排名 功能 ,对 于 受众 的 监测 ,可 以 分 析 受 众 地 
区 分 布 , 加 之 受众 情绪 评估 ,重点 对 事件 发 生地 区 的 
稳定 度 进行 实时 监测 ; 马 彦 品 通 过 分 析 大 数据 环境 下 
微 博导 情 的 发 展 特点 和 与 情 自动 监测 的 具体 需求 , 设 
计 微 博 与 情 热 点 挖掘 系统 结构 模型 ,描述 各 层 的 主要 
功能 和 实现 方法 ; 也 有 学 者 根据 神经 网 络 进行 与 情 的 
研究 ， 如 潘 芳 等 外 构建 基于 BP 神经 网 络 的 预警 监控 模 
型 以 应 对 动态 多 变 的 微 博 网 络 社 群 突 发 与 情 。 目 前 ， 
鲜 有 学 者 根据 当前 的 大 数据 环境 , 构建 微 博 与 情 监 控 
系统 模型 ， 对 海量 数据 进行 处 理 分 析 ， 达到 预警 监控 
的 目的 。 

在 国内 , 新浪 微 博 是 最 大 的 在 线 社会 网 络 ,在 微 
博 领域 也 最 具有 影响 力 ,是 微 博 领 域 的 代表 ,因此 本 
文 数据 源 取 自 新 浪 微 博 ,在 此 基础 之 上 ,主要 介绍 微 
博 熏 情 监控 系统 模型 框架 和 微 博 与 情 监 控 系 统 结构 ， 
并 进行 系统 模型 的 仿真 。 


3 系统 整体 框架 


HadoopL 9 是 Apache 软件 基金 会 旗下 的 一 个 开源 
项 目 , 由 Apache 软件 基金 会 于 2005 年 设计 , 作为 较 
早出 现 的 云 计算 平台 ,其 开源 特性 使 得 Hadoop 发 展 
迅速 , 目前 已 经 拥有 成 熟 的 社区 , 技术 上 也 比较 成 熟 ， 
在 数据 处 理 效率 、 稳 定性 和 容错 性 方面 表现 很 好 ， 基 
于 以 上 特点 , Hadoop 平台 使 用 者 可 以 自由 地 开发 、 运 
行 基 于 海量 数据 的 应 用 程序 ,在 性 能 提高 的 同时 ， 开 
发 成 本 也 大 幅度 降低 , 在 当下 Hadoop 被 认为 是 大 数 
据 处 理 的 标准 。 整个 平台 包括 Hadoop 内 核 .HDFSC 
(Hadoop 分 布 式 文件 系统 )、MapReducel "4 并 行 计算 机 
架 以 及 一 些 相 关 开 源 项 目 ， 如 Hive 数据 仓库 基础 架 
构 、HBaset" 非 关系 型 分 布 式 数据 库 等 。 

本 文 微 博 如 情 监控 系统 模型 基于 Hadoop 和 平台， 
以 HBase 作为 海量 数据 存储 数据 库 ， 整个 模型 包括 
Hadoop 基础 架构 、 微 博 数 据 采集 模块 、 数 据 预 处 理 模 
块 、 微 博 鼻 情 监 控 分 析 模 块 以 及 可 视 化 交互 5 部 分 ， 
如 图 1 所 示 。 
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E 于 Hadoop 微 傅 监控 系统 模型 


微 博 与 情 监 控 
分 析 模 块 


Hadoop 攻 
基础 架构 || 采集 模块 | | 处理 模块 
去 重 去 品 | [| 热点 话题 
| 门 倾向 性 判定 
特征 提取 站 各 公私 分 析 | 


图 1 徽 博 与 情 监 控 系 统 模型 整体 框架 


4 ” 微 博 与 情 监控 系统 功能 结构 


4.1 功能 模块 分 析 

微 博 与 情 监控 系统 由 Hadoop 基础 架构 、 微 博 数 
据 采 集 模块 、 数 据 预 处 理 模 块 、 微 博 与 情 监控 分 析 模 
块 、 可 视 化 交互 模块 组 成 。 图 2 为 微 博 与 情 监控 系统 


各 模块 交互 图 。 
微 博 数据 
预 处 理 


可 视 化 交互 


MapReduce 


Hadoop 基 础 架构 
图 2 微 博 与 情 监 控 系 统 各 模块 交互 


(1) Hadoop 基础 架构 : 提供 Hadoop 分 布 式 数据 
(索引 库 、 HBase 库 、 分 析 库 ) 的 操作 接口 、MapReduce 
并 行 计算 框架 ; 

(2) 微 博 数据 采集 模块 : 采集 微 博 博 主 相关 信息 、 
微 博 内 容 、 点 赞 数 、 转 发 数 、 原 文 链 接 等 信息 ; 

(3) 数据 预 处 理 模块 : 完成 数据 的 去 重 去 噪 、 中 文 
分 词 、 特 征 提取 等 相关 工作 , 为 监控 分 析 作 数据 准备 ; 

(4) 微 博 舆 情 监 控 分 析 模 块 : 文本 的 向 量化 表示 、 
对 预 处 理 后 的 数据 进行 聚 类 分 析 、 文 本 相似 度 计 算 等 
实现 与 情 监控 分 析 功 能 ; 

(5) 可 视 化 交互 模块 : 基于 J2EE 架构 的 用 户 交互 
功能 。 

4.2” 微 博 数 据 采集 模块 关键 技术 
数据 采集 模块 主要 负责 新 浪 微 博 数 据 的 采集 ， 包 
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括 博 主 信息 、 微 博 内 容 以 及 关注 信息 。 获 取 新 浪 微 博 
数据 主要 利用 新 浪 微 博 服务 商 提供 的 API 接口 , 使 用 
API 接口 的 好 处 在 于 方便 ， 并且 效率 较 高 ,但 是 在 实 
验 过 程 中 发 现 ， 新 浪 微 博 服务 提供 商 并 没有 把 所 有 的 
接口 都 展现 给 普通 用 户 , 同时 对 于 不 同 的 API 接口 调 
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布 式 预 处 理 主要 使 用 中 国 科学 院 计算 技术 研究 所 研发 
的 汉语 词法 分 析 系 统 ICTCLAS "对 文本 分 词 , 最 终生 
成 倒 排 索引 文件 。ICTCLAS 主要 功能 包括 中 文 分 词 、 
词性 标注 、 命 名 实体 识别 、 新 词 识别 , 同时 支持 用 户 
词典 中。 另外 ,其 对 于 中 文 信息 的 分 词性 能 和 分 词 精 


用 的 频率 与 查询 范围 也 进行 限制 。 新 浪 微 博 限制 了 对 
服务 器 的 一 次 请 求 返回 的 结果 数 和 普通 授权 用 户 每 小 
时 接口 的 访问 次 数 ， 而 且 拒绝 短 时 间 内 高 频率 的 API 
接口 调用 ,所 以 在 采集 过 程 中 , 笔者 进行 优化 ,利用 
队列 及 轮换 使 用 多 个 微 博 账号 解决 这 一 问题 得 到 
JSON 数据 后 , 需要 进行 解析 将 数据 去 噪 同时 作 消 重 
人 处理, 最 终 存 人 Hbase。 图 3 为 通过 新 浪 微 博 API 数 
据 采 和 集 流程 。 


获取 授权 模块 


了 氏 


模拟 登录 


获取 用 户 队列 


调用 API 获 取 数 据 户 | 解 析 JSON 数 据 记 抽取 信息 


记录 API 使 用 次 数 
图 3 新 浪 微 博 API 数据 抓 取 程序 流程 
4.3 数据 预 处理 模 块 
数据 预 处 理 模块 主要 包括 文本 的 去 重 去 品 、 中 文 
分 词 生 成 倒 排 索引 文件 和 文本 特征 提取 三 个 部 分 , 下 
面 重 点 介绍 通过 中 文 分 词 得 到 倒 排 索引 文件 和 通过 特 
征 提取 得 到 文本 向 量 集 。 整 体 流程 如 图 4 所 示 : 


图 4 数据 预 处 理 模 块 流程 


(1) 分 布 式 预 处 理 
中 文 词法 分 析 是 中 文 信息 处 理 的 关键 和 基础 。 分 
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度 均 非 常 高 , 分 词 效 果 非 常 好 , 结合 Hadoop 使 用 性 能 
比较 乐观 。 

在 此 阶段 , 结合 MapReduce 利用 ICTCLAS 分 词 
系统 ， 实 现 中 文 分 词 等 功能 。Map 阶段 主要 负责 把 一 
行文 本 Map 成 阁 干 组 键 值 对 ,在 并 行 的 Reduce 阶段 ， 
确保 所 有 经 过 映射 的 键 值 对 根据 键 值 的 不 同 共享 在 同 
一 个 组 内 。 图 5 为 整体 流程 图 。 


Reduce 阶 段 


Map 阶 段 (key,value) 


实现 文本 集 的 并 行 切 分 词 频 统计 


建立 倒 排 索引 


中 文 分 词 算法 


Map 函 数 将 传人 的 文本 集 
转化 为 <key, value> 对 


图 5 中 文 分 词 系统 生成 倒 排 索引 文件 流程 

(将 去 重 去 吧 的 文本 , 利用 MapReduce 框架 , 在 Map 阶 
段 实现 文本 集 的 并 行 切 分 ,与 传统 的 ICTCLAS 分 词 相 比 , 在 
这 个 阶段 引入 <key, value> 对 , 其 中 key 表示 经 过 Map 函数 处 
理 后 的 “ 词 ', value 表示 经 过 Map 函数 分 词 后 的 ' 词 频 ?; 

@) 利 用 Reduce 函数 进行 相同 词 的 汇总 ， 此 时 的 value 表 
示 进 行 分 词 后 的 词组 汇总 后 的 总 词 频 ; 

@ 将 <key，value> 键 值 对 进行 对 调 ， 即 词 频 在 前 ， 词 在 
后 ， 以 实现 词 频 按 照 降 序 排列 。 

(2) 特征 抽取 模块 

特征 选择 的 任务 是 将 文本 预 处 理 后 得 到 的 倒 排 索 
引文 件 进行 特征 降 维 处 理 , 计算 特征 词 在 各 个 文本 中 
的 权重 , 最 终 得 到 文本 向 量 集合 。 本 文选 择 TF-IDF 算 
法 , 并 在 MapReduce 下 进行 实现 。 TF-IDF 是 一 种 基于 
向 量 空间 模型 的 分 类 算法 , 用 以 评估 一 个 字 或 词 对 于 
一 个 文件 集 或 一 个 语料库 中 的 其 中 一 份 文件 的 重要 程 
度 。 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 
增加 , 但 同时 会 随 着 它 在 语料库 中 出 现 的 频率 成 反比 
下 降 5。 其 优势 在 于 向 量 模型 结构 简单 、 便 捷 ， 随 着 
数据 规模 的 增 大 ,分 类 精度 会 大 幅 提高 ， 其 性 能 相当 
好 , 并 且 这 种 模型 易于 并 行 化 , 非常 符合 Hadoop 的 核 
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心思 想 : 任务 的 分 制 和 并 行 运行 5。 在 Hadoop 分 布 式 
平台 下 可 以 有 效 地 将 文本 分 类 。TF-IDF 算法 的 处 理 流 
程 如 下 : 

在 Map 阶段 各 个 Mappers 读 取 索引 文件 中 的 文本 块 ; 

@) 统 计 文档 个 数 和 每 篇 文档 中 特征 词 的 出 现 次 数 ， 以 
键 值 对 形式 输出 ; 

回 将 键 值 对 按键 的 大 小 进行 本 地 排序 后 发 送 给 
Reducer 将 拥有 同一 文档 ID 的 所 有 特征 词 的 TF-IDF 值 进 
行 归 一 化 处 理 ; 

@ 将 各 个 特征 词 的 TF-IDF 值 作为 文本 向 量 中 的 项 来 
构建 新 的 文本 向 量 。 

特征 抽取 模块 流程 如 图 6 所 示 : 


统计 文档 个 数 和 特征 词 


Wap 词 频 并 归 一 化 TF 


读 取 索 引文 件 


拥有 同一 文档 ID 的 所 有 特征 词 
的 TF-IDF 值 进行 归 一 化 处 理 


统计 出 现 某 一 特征 
阶段 词 的 文档 个 数 


Reduce 


图 6 特征 抽取 模块 流程 


4.4” 微 博 熏 情 监控 分 析 模 块 

和 与 情 监 控 分 析 模 块 是 系统 的 核心 模块 , 它 包 含 最 
新 消息 、 热 点 话题 发 现 、 敏 感 话题 检测 、 话 题 追踪 、 
情感 倾向 分 析 、 恤 情 走势 分 析 、 活 跃 博 主 追踪 等 。 以 
下 仅 对 主要 功能 展开 具体 的 阐述 。 

(1) 热点 话题 发 现 

热点 话题 发 现 是 网 络 与 情 分 析 的 重点 ,是 在 上 述 
构造 出 的 特征 矩阵 基础 上 进行 文本 聚 类 ,利用 文本 聚 
类 算法 计算 出 相似 内 容 , 将 聚 类 后 的 各 个 中 心 点 及 其 
子 项 进行 存储 , 将 聚 类 结果 进行 可 视 化 输出 。 在 文本 
聚 类 过 程 中 , 本 文 结合 实际 情况 针对 K-means 聚 类 算 
法 进行 以 下 优化 : 

四 由 于 是 处 理 中 文 文本 ,针对 汉语 一 词 多 义 、 同 义 词 等 
情况 ,在 聚 类 过 程 中 , 计算 向 量 乘 积 时 结合 HowNett 计算 
文本 相似 度 ,提高 聚 类 的 精度 ; 

人 @) 由 于 K-means 聚 类 算法 对 开 值 的 变化 比较 敏感 ， 本 文 
采用 Canopy 算法 确定 徐 数 KK 和 徐 中 心 ; 

@@ 运 行 在 Hadoop 框架 上 ， 加 快 文本 处 理 速 度 ， 实现 
K-means 聚 类 算法 的 并 行 化 。 
通过 优化 后 的 K-means 聚 类 算法 并 行 化 方式 , 达 
到 改善 聚 类 效果 , 提高 聚 类 精度 的 目的 .工作 流程 如 下 : 

Q 读 取 特 征 提 取 模 块 得 到 的 特征 矩阵 ; 


回 通过 基于 MapReduce 的 Canopy 算法 "获取 秘 中 心 ; 
@ 通 过 优化 后 的 K-means 算法 计算 数据 对 象 与 炙 中 心 
的 距离 ; 

@ 将 聚 类 结果 中 各 中 心 点 以 及 包含 的 子 项 写 入 分 析 库 ， 
并 进行 可 视 化 输出 。 

(2) 情感 倾向 性 分 析 

微 博 情 感 倾 向 性 分 析 就 是 对 说 话 人 的 态度 (或 称 
观点 、 情 感 ) 进 行 分 析 , 也 就 是 对 文本 中 的 主观 性 信息 
进行 分 析 中 。 情 感 倾向 性 分 析 主 要 完成 的 工作 简单 来 
说 就 是 利用 计算 机 通过 信息 发 布 者 的 内 容 自 动 对 文本 
表达 的 情感 倾向 进行 判断 , 将 文本 感情 色彩 分 为 正面 
仁义 类 、 中 立 类 、 负 面 贬 义 类 三 种 。 

本 文采 用 文献 [19] 提 出 的 微 博 情 感 倾向 算法 实现 
文本 的 倾向 性 分 析 , 该 算法 主要 是 在 Shen[9 提 出 的 
MBEWC 微 博 情 感 倾向 计算 器 的 基础 上 ,针对 微 博文 
本 信息 的 特殊 性 提出 改进 算法 , 加 入 多 种 词典 并 构建 
全 新 的 情感 倾向 词典 方案 ,使 得 情感 倾向 判别 准确 率 
大 幅 提升 。 本 算法 的 主要 实现 流程 如 图 7 所 示 : 


结构 化 文本 子 名 分割 


区 72 


图 7 微 博 情感 倾向 算法 流程 


该 过 程 分 别 采用 mn 个 Map 阶段 和 一 个 Reduce 阶 
段 , 将 计算 结果 存储 在 分 析 库 ,通过 用 户 交 互 模块 进 
行 可 视 化 之 后 展现 出 来 。 


5 模型 仿真 


5.1 实验 环境 配置 

实验 在 硬件 方面 由 4 台 同 构 的 普通 PC 机 通过 一 
台 交 换 机 相连 构建 一 个 小 型 的 Hadoop 集群 ,分 别 在 
4 台 PC 机 上 安装 14.04 Ubuntu 操作 系统 , 将 Hadoop 
2.2.0 部 署 在 Ubuntu 系统 上 完成 Hadoop 集群 的 搭建 ， 
将 其 中 一 台 PC 机 作为 主 节点 , 命名 为 HostMaster, 用 
来 启动 JobTracker 和 NameNode 进程 , 剩 下 的 三 台 机 
器 分 别 命名 为 slavel 、slave2 、slave3 作为 从 节点 , 用 
来 启动 TaskTracker 和 DataNode 进程 。4 台 PC 机 了 P 
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地 址 分 别 为 172.30.78.1- 172.30.78.4。 实验 的 软 硬 件 具 
体 配置 及 节点 拓扑 结构 如 表 1、 表 2 和 图 8 所 示 : 
表 1 硬件 环境 配置 


硬件 配置 
CPU Intel(R) Core (TM) i3-3240 3.40GHz 
硬盘 500GB 
内 存 4GB 
以 太 网 卡 Realtek PCIe GBE Family Controller 
交换 机 Mbps 
表 2 软件 环境 配置 
软件 软件 版 本 
操作 系统 Ubuntu 14.04 
JDK jdk1.7.0_51 
Hadoop Hadoop-2.2.0 
HBase HBase0.96 
Eclipse eclipse-jee-kepler-SR1-linux-gtk-x86_64 


HostMaster MT Switch 


slavel 
slave2 
slave3 


图 8 节点 拓扑 结构 


S.2 ”数据 采集 

微 博 数据 采集 模块 是 整个 系统 数据 的 来 源 , 它 的 
成 功 与 和 否 关系 到 后 面 系统 每 个 环节 的 实现 。 采 集 数据 
时 , 不 可 能 采集 到 新 浪 微 博 所 有 的 数据 ， 主 要 采取 广 
度 优先 过 历 用 户 列 表 的 策略 : 从 一 个 受 关注 度 高 的 种 
子 用 户 出 发 ,获取 其 关注 用 户 , 形成 第 一 层 用 户 ， 获 
取 第 一 层 用 户 的 关注 列表 , 形成 第 二 层 用 户 , 通过 不 
断 问 其 所 关注 的 微 博 用 户 进行 扩张 的 方式 ， 直 到 用 户 
层 数 或 者 本 层 用 户 数 达 到 设 定 的 值 为 止 , 利用 数据 采 
集 模 块 的 算法 获取 到 相关 的 数据 。 在 本 次 采集 中 , 笔 
者 将 “今日 头条 ”作为 种 子 用 户 , 采集 的 数据 时 间 设 定 
在 2015 年 6 月 1 日 -2015 年 11 月 30 日 ,最 终 采 集 接 
近 15 万 微 博 数据 ， 主 要 包括 微 博 链接 、 内 容 、 博 主 相 
关 个 人 信息 、 粉 丝 相关 信息 、 微 博 转 发 数 和 评论 数 等 。 
5.3 ”文本 预 处 理 

在 数据 采集 完成 之 后 , 为 了 方便 验证 ,选取 
300MB 数据 进行 文本 预 处 理 实验 ， 主 要 为 了 评估 在 
Hadoop 平台 下 ,系统 进行 中 文 分 词 、 特 征 抽取 等 文本 
预 处 理 过 程 时 系统 处 理 效率 。 一 般 利 用 指标 加 速 比 稀 
量 不 同 节 点 下 的 系统 的 性 能 。 加 速 比 (Speedup) 是 同一 


区 了 现代 图 书 情报 技术 


个 任务 在 单 处 理 器 系统 和 并 行 处 理 器 系统 中 运行 消耗 
的 时 间 的 比率 , 衡量 并 行 系统 或 程序 并 行 化 的 性 能 和 
效果 , 加速 比 计算 公式 如 下 : 


Speedup = (1) 


其 中 , T1 是 单 处 理 器 ( 单 节 点 ) 下 的 运行 时 间 ，Tp 
是 在 有 了 个 处 理 器 (多 节点 ) 并 行 系统 中 的 运行 时 间 。 

(1) 中 文 分 词 实现 倒 排 索引 文件 

该 实验 主要 是 为 了 评估 在 分 布 式 环境 下 进行 分 
词 、 倒 排 索 引 的 构建 等 文本 预 处 理 过 程 时 系统 处 理 效 
率 , 分 别 在 节点 数目 为 1、2、3 时 , 得 到 单机 系统 和 
集群 规模 下 采用 不 同 节 点 个 数 进行 实验 所 耗费 的 时 
间 , 实验 结果 如 表 3 所 示 : 
表 3 中 文 分 词 处 理 实现 倒 排 索引 文件 时 间 及 加 速 比 


节点 个 数 时 间 (s) 加 速 比 
单机 1 268.9 = 
1 1 369.4 0.93 
2 685.6 1.85 
3 513.7 2.47 


(2) 文本 向 量化 

使 用 特征 选择 后 得 到 的 特征 词 对 文本 进行 向 量化 
处 理 , 计算 节点 数目 不 同时 的 加 速 比 , 实验 结果 如 表 
4 所 示 : 


表 4 文本 向 量化 处 理 时 间 及 加 速 比 


节点 个 数 时 间 (s) 加 速 比 
单机 448.5 加 
1 492.8 0.91 
2 285.7 1.57 
3 242.4 1.85 


对 中 文 分 词 实现 倒 排 索引 文件 、 文 本 向 量化 两 个 
阶段 绘制 加 速 比 曲线 ,如 图 9 所 示 : 


3.0 


= -本 中 文 分 词 
于 -文本 向 量化 


1 2 -3 
节点 个 数 


图 9 文本 预 处 理 实验 加 速 比 对 比 
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(3) 实验 结果 分 析 

在 单 节点 处 理 时 ,其 加 速 比 略 小 于 1, 这 是 由 于 节点 
自身 的 TaskTracker 和 DataNode 上 的 进程 会 有 通信 开销 ， 处 
理 速 度 比 单机 系统 要 差 ， 但 是 影响 不 是 很 大 , 这 一 特点 在 实 
验 的 各 个 阶段 都 有 反映 。 

@) 随 着 节点 数目 的 增加 ，Hadoop 的 性 能 优势 也 显现 出 
来 : 加 速 比 增加 ， 并且 加 速 比 越 来 越 大 ， 各 个 阶段 系统 开始 
并 行 运行 。 中 文 分 词 、 文 本 向 量化 的 处 理 速 度 明 显 提升 ， 说 
明 节 点 越 多 ,数据 块 的 分 割 粒度 越 细 ,任务 运行 的 并 发 程度 
就 会 越 高 。 

@ 国 加 速 比 并 不 与 节点 个 数 成 正比 增长 , 与 正比 增长 相 
比 ,会 稍 有 所 降低 ， 原 因 在 于 节点 之 间 相 互通 信 所 耗费 的 时 
间 增 加 ， 从 而 影响 了 并 行 效率 。 由 于 节点 数目 较 少 ， 如 果 继 
续 增加 节点 数目 ， 可 以 更 清晰 看 到 这 个 特点 。 
5.4 热点 话题 发 现 及 可 视 化 

在 热点 话题 发 现 这 一 阶段 ， 利 用 采集 到 的 数据 ， 
从 中 提取 出 博 主 ID 、 发 布 时 间 、 微 博 内 容 、 采 集 时 间 
等 相关 字段 ,通过 中 文 分 词 、 特 征 抽取 、 癌 量化 文本 ， 
以 余弦 相似 性 度量 对 微 博 数据 进行 聚 类 , 将 2015 年 8 
月 15 日 当天 的 数据 聚 类 后 的 结果 进行 可 视 化 , 结果 如 
图 10 所 示 , 中 心 的 “+” 表示 当日 的 话题 , 周围 的 符号 
表示 参与 此 话题 的 博 主 。 


* 


二 这 ， 半 
* 六 CL 沁 
米 洲 米 | 花 千 骨 : 全 民 争 当 花 千 骨 
玉米 入 
A 水 六 站 涨 品 
全 炒 * 
六 es 国 | 贺 


情人 节 就 要 到 啦 : 听 说 七 夕 情 
他 快 到 了 ~ 然后 我 们 提前 出 
去 腐败 一 下 


大 津 港 爆炸 : 天 津 港 爆炸 事故 
死亡 人 数 已 上 升 至 104 人 , 住院 


女 立 


图 10 热点 话题 可 视 化 


5.5 情感 倾向 性 分 析 
在 情感 倾向 性 分 析 阶 段 , 为 了 便于 统计 与 计算 ， 
随机 抽取 了 一 万 条 的 微 博 数据 进行 情感 倾向 性 的 判 
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定 , 并 对 其 进行 人 工 的 标注 判定 。 在 标注 过 程 中 ， 主 要 
采用 以 下 流程 对 获取 到 的 数据 进行 判定 : 由 5 人 完成 
标定 , 每 人 判定 2 000 条 微 博 数据 的 倾向 性 ， 以 加 快 数 
据 的 判定 ; 每 人 标注 完成 后 , 将 微 博 内 容 相同 但 是 标 
定 为 不 同情 感 倾 向 的 微 博 进行 讨论 , 作出 统一 判定 标 
准 ; 对 不 同意 见 的 微 博 进行 讨论 ， 以 少数 服从 多 数 的 
原则 进行 标定 ， 直 到 将 所 有 数据 完成 标注 ; 最 终 统 计 
三 类 微 博 倾向 数量 如 表 5 所 示 : 
表 5 人 工 标注 判定 微 博 倾向 统计 


微 博 数据 总 量 。 积极 倾向 中 立 倾向 消极 倾向 


10 000 3 625 4617 1 758 


利用 文献 [19] 提 出 的 算法 计算 准确 率 (Precision) 与 
召回 率 (Recall)。 准 确 率 用 以 评估 算法 的 准确 度 ， 召回 
率 用 以 评估 该 算法 识别 出 原来 具有 某 种 倾向 的 微 博 文 
本 被 成 功 识 别 的 概率 。 准 确 率 与 召回 率 计算 公式 如 下 
所 示 : 


Correct 


Precision =—————x100% (2) 
Propose 
Recall -Correct x100% (3) 
Gold 


其 中 ，Correct 指 分 类 正确 的 数量 , Propose 指 所 提 

交 结 果 中 认为 是 该 分 类 的 数量 ，Gold 为 样本 中 人 工 标 

记 的 该 分 类 的 数量 。 表 6 和 表 7 分 别 为 准确 率 和 召回 

率 计算 后 的 统计 结果 ,从 整体 表现 来 看 , 该 算法 的 准 

确 率 较 高 ， 成功 完成 了 微 博 倾向 性 的 自动 判定 ， 对 实 
际 与 情 工 作 有 一 定 的 指导 意义 。 

表 6 准确 率 统计 结果 


微 博 数 据 积极 倾向 中 立 倾向 消极 倾向 
Propose 3 665 4379 1956 
Correct 2750 3 829 1 379 
Precision 75.03% 87.44% 70.50% 

表 7 召回 率 统计 结果 

微 博 数据 积极 倾向 中 立 倾向 消极 倾向 
Gold 3 625 4617 1758 
Correct 2750 3 829 1 379 
Recall 75.86% 82.93% 78.44% 

6 结 语 


本 文 针对 微 博 这 一 社交 网 络 的 快速 发 展 ,提出 基 
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于 Hadoop 的 微 博 熏 情 监控 系统 模型 , 研究 大 数据 环 
境 下 , 将 Hadoop 分 布 式 存储 和 MapReduce 并 行 计算 
模型 运用 于 海量 微 博 与 情 监控 分 析 ,， 并 对 模型 组 成 模 
块 的 工作 流程 和 实现 方式 做 了 详细 设计 。 本 文 主要 完 
成 以 下 工作 : 

(1) 人 研究 网 络 鼻 情 分 析 的 关键 技术 , 深入 分 析 信 

息 采 集 、 信 息 预 处 理 、 文 本 聚 类 等 各 个 模块 ， 完 成 整 

个 模型 框架 的 构建 

(2) 利用 普通 PC 机 构造 Hadoop 集群 ,对 提出 的 
模型 在 不 同 的 节点 下 的 系统 性 能 进行 对 比分 析 ; 

(3) 完成 数据 的 抓 取 工 作 , 并 利用 文献 [19] 提 出 的 
算法 , 成 功 将 抓 取 到 微 博 进行 情感 倾向 性 的 判定 ; 

(4) 对 提出 的 基于 Hadoop 的 微 博 僵 情 监控 系统 模 
型 进行 验证 。 


通过 实验 仿真 , 基于 Hadoop 的 微 博 僵 情 监控 系 
统 可 以 有 效 地 对 大 规模 微 博 数据 进行 与 情 监控 分 析 ， 


然而 仍 存在 以 下 问题 需要 进行 后 续 研 究 : 

(1) 对 实验 条 件 进 行 改进 , 扩大 Hadoop 集群 ， 尝 
试 更 多 节点 下 模型 的 效率 ; 

(2) 尝试 其 他 聚 类 算法 ,进行 对 比分 析 , 完成 基 
于 Hadoop 平台 下 微 博 与 情 监控 系统 获取 热点 话题 的 
准确 度 ; 

(3) 本 文 微 博 舆 情 监控 系统 主要 研究 工作 集中 处 

向 博文 本 , 在 后 续 工作 中 要 多 注重 多 媒体 数据 的 处 

理 ,以 获取 更 大 的 实用 价值 。 
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Hadoop Based Public Opinion Monitoring System for Micro-blogs 


Yang Aidong Liu Dongsu 
(School of Economics and Management, Xidian University, Xi’an 710126, China) 

Abstract: [Objective] This paper presents a new model for public opinion monitoring system based on Hadoop to 
retrieve and analyze information from the micro-blog platforms. [Methods] We first surveyed the existing technology 
of the public opinion monitoring systems and proposed a new model with modified algorithm. Then, we built a big data 
analysis platform with Hadoop to examine the model’s feasibility through experimental simulations. [Results] The 
proposed model can detect and retrieve public opinion data effectively. [Limitations] The Hadoop cluster was relatively 
small. We did not compare our model with other clustering algorithms to discuss their advantages and disadvantages. 
[Conclusions] The proposed model can conduct public opinion analysis with micro-blog data and provide scientific 
information for the policy makers to Improve crisis management. 


Keywords: Monitoring public opinion Hadoop Micro-blog Big data 


XIANDAI TUSHU QINGBAO JISHU 她 多; 


